| Name | Piped data |
| Number of rows | 671 |
| Number of columns | 27 |
| _______________________ | |
| Column type frequency: | |
| factor | 7 |
| numeric | 20 |
| ________________________ | |
| Group variables | None |
Variable type: factor
| skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
|---|---|---|---|---|---|
| race | 25 | 0.96 | FALSE | 4 | bla: 369, whi: 257, nat: 16, ori: 4 |
| inout | 3 | 1.00 | FALSE | 2 | bor: 547, tra: 121 |
| delivery | 22 | 0.97 | FALSE | 2 | vag: 335, abd: 314 |
| pvh | 145 | 0.78 | FALSE | 3 | abs: 360, def: 125, pos: 41 |
| ivh | 144 | 0.79 | FALSE | 3 | abs: 442, def: 75, pos: 10 |
| ipe | 144 | 0.79 | FALSE | 3 | abs: 472, def: 38, pos: 17 |
| sex | 21 | 0.97 | FALSE | 2 | mal: 330, fem: 320 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| birth | 21 | 0.97 | 84.75 | 1.60 | 81.51 | 83.52 | 84.90 | 86.07 | 87.48 | ▅▆▇▇▆ |
| exit | 31 | 0.95 | 84.84 | 1.79 | 68.53 | 83.58 | 84.96 | 86.17 | 96.87 | ▁▁▇▅▁ |
| hospstay | 31 | 0.95 | 40.36 | 304.84 | -6574.00 | 16.00 | 37.00 | 62.00 | 3668.00 | ▁▁▁▇▁ |
| lowph | 62 | 0.91 | 7.20 | 0.14 | 6.53 | 7.13 | 7.21 | 7.31 | 7.55 | ▁▁▃▇▂ |
| pltct | 70 | 0.90 | 201.62 | 80.55 | 16.00 | 143.00 | 202.00 | 252.00 | 571.00 | ▃▇▅▁▁ |
| bwt | 2 | 1.00 | 1093.89 | 265.22 | 400.00 | 900.00 | 1120.00 | 1310.00 | 1580.00 | ▂▅▆▇▅ |
| gest | 4 | 0.99 | 28.87 | 2.55 | 22.00 | 27.00 | 29.00 | 31.00 | 40.00 | ▂▇▆▁▁ |
| twn | 20 | 0.97 | 0.21 | 0.41 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▂ |
| lol | 381 | 0.43 | 8.44 | 19.26 | 0.00 | 0.00 | 3.50 | 9.00 | 192.00 | ▇▁▁▁▁ |
| magsulf | 247 | 0.63 | 0.13 | 0.34 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▁ |
| meth | 106 | 0.84 | 0.44 | 0.50 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | ▇▁▁▁▆ |
| toc | 106 | 0.84 | 0.22 | 0.42 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▂ |
| apg1 | 34 | 0.95 | 4.90 | 2.63 | 0.00 | 2.00 | 5.00 | 7.00 | 9.00 | ▅▆▆▇▇ |
| vent | 30 | 0.96 | 0.58 | 0.49 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 | ▆▁▁▁▇ |
| pneumo | 26 | 0.96 | 0.20 | 0.40 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▂ |
| pda | 29 | 0.96 | 0.21 | 0.41 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▂ |
| cld | 66 | 0.90 | 0.27 | 0.44 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | ▇▁▁▁▃ |
| year | 21 | 0.97 | 84.76 | 1.60 | 81.51 | 83.52 | 84.91 | 86.07 | 87.48 | ▅▆▇▇▆ |
| dead | 0 | 1.00 | 0.21 | 0.41 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | ▇▁▁▁▂ |
| id | 0 | 1.00 | 336.00 | 193.85 | 1.00 | 168.50 | 336.00 | 503.50 | 671.00 | ▇▇▇▇▇ |
Сначала конвертируем переменные apg1, twn, vent, pneumo, pda, cld, dead, id в факторы.
| Name | Piped data |
| Number of rows | 531 |
| Number of columns | 20 |
| _______________________ | |
| Column type frequency: | |
| factor | 12 |
| numeric | 8 |
| ________________________ | |
| Group variables | None |
Variable type: factor
| skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
|---|---|---|---|---|---|
| race | 0 | 1 | FALSE | 4 | bla: 303, whi: 211, nat: 13, ori: 4 |
| inout | 0 | 1 | FALSE | 2 | bor: 448, tra: 83 |
| twn | 0 | 1 | FALSE | 2 | 0: 422, 1: 109 |
| delivery | 0 | 1 | FALSE | 2 | vag: 269, abd: 262 |
| apg1 | 0 | 1 | FALSE | 10 | 8: 91, 1: 74, 6: 70, 7: 69 |
| vent | 0 | 1 | FALSE | 2 | 1: 288, 0: 243 |
| pneumo | 0 | 1 | FALSE | 2 | 0: 438, 1: 93 |
| pda | 0 | 1 | FALSE | 2 | 0: 425, 1: 106 |
| cld | 0 | 1 | FALSE | 2 | 0: 393, 1: 138 |
| sex | 0 | 1 | FALSE | 2 | mal: 267, fem: 264 |
| dead | 0 | 1 | FALSE | 2 | 0: 467, 1: 64 |
| id | 0 | 1 | FALSE | 531 | 2: 1, 4: 1, 5: 1, 7: 1 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| birth | 0 | 1 | 84.63 | 1.54 | 81.51 | 83.43 | 84.77 | 85.83 | 87.48 | ▅▆▇▇▅ |
| exit | 0 | 1 | 84.76 | 1.55 | 81.05 | 83.56 | 84.87 | 85.99 | 87.72 | ▂▆▇▇▅ |
| hospstay | 0 | 1 | 47.04 | 63.50 | -295.00 | 21.00 | 40.00 | 64.00 | 797.00 | ▁▇▁▁▁ |
| lowph | 0 | 1 | 7.22 | 0.13 | 6.53 | 7.13 | 7.22 | 7.32 | 7.55 | ▁▁▃▇▂ |
| pltct | 0 | 1 | 204.49 | 80.83 | 16.00 | 148.00 | 204.00 | 256.00 | 571.00 | ▂▇▅▁▁ |
| bwt | 0 | 1 | 1135.61 | 240.04 | 400.00 | 960.00 | 1160.00 | 1330.00 | 1500.00 | ▁▃▆▇▇ |
| gest | 0 | 1 | 29.25 | 2.21 | 23.00 | 28.00 | 29.00 | 31.00 | 36.00 | ▁▇▇▆▁ |
| year | 0 | 1 | 84.63 | 1.54 | 81.51 | 83.43 | 84.77 | 85.83 | 87.48 | ▅▆▇▇▅ |
Построим графики плотности распределения количественных переменных
Явные выбросы у переменной hospstay: отрицательные значения и значения больше 300 . Удалим их.
Раскрасим графики плотности по переменной ‘inout’.
Выбран t_test с методом Уэлча, т.к. минимальное количество в группе 80 и дисперсии неизвестны.
## # A tibble: 1 × 8
## .y. group1 group2 n1 n2 statistic df p
## * <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl>
## 1 lowph born at Duke transported 438 80 5.32 107. 0.000000588
##
## Welch Two Sample t-test
##
## data: cleaned_data_1$lowph by cleaned_data_1$inout
## t = 5.3159, df = 106.63, p-value = 5.876e-07
## alternative hypothesis: true difference in means between group born at Duke and group transported is not equal to 0
## 95 percent confidence interval:
## 0.05424374 0.11876292
## sample estimates:
## mean in group born at Duke mean in group transported
## 7.230751 7.144248
Интерпретация: Отвергаем нулевую гипотезы о равенстве средних в группе born at Duke и группе transported. Т.к. среднее в группе transported статистически значимо ниже, то можно предположить, что в данной группе более низкая выживаемость.
## $hopkins_stat
## [1] 0.7904047
Оценим кластеризацию:
## [1] 0.62383
## $hopkins_stat
## [1] 0.8273205
Оценим кластеризацию:
## [1] 0.728013
Интерпретация: Длительное пребывание в госпитале ассоциировано с низким весом при рождении и ранними родами.
Интерпретация: В группе со смертельным исходом более низкий балл по шкале апгар, шкала апгар не ассоциирована с количеством рожденных детей.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.536 0.9965 0.8910 0.7655 0.51689
## Proportion of Variance 0.472 0.1986 0.1588 0.1172 0.05343
## Cumulative Proportion 0.472 0.6706 0.8294 0.9466 1.00000
Интерпретация: 3 компоненты обуславливают 83% дисперсии данных. В первую компоненту основной вклад вносят переменные: вес и гестационный возраст при рождении; во вторую компоненту основной вклад вносят число тромбоцитов; в третью компоненту основной вклад вносит минимальное значение pH и срок госпитализации. PCA применяется в первую очередь для количественные данных и обязательно проводится масштабирование.
Вес при рождении и неделя беременности, на которой произошло родоразрешение, определяют 47.2% вариации в количественных данных. Количество тромбоцитов определяют в свою очередь почти 20% вариации в данных, а Минимальное pH и длительность госпитализации определяют 16% вариации. Присутствует выраженное смещение случаев со смертельным исходом вдоль главной компоненты. Почему использовать колонку ‘dead’ для выводов об ассоциации с выживаемостью некорректно? PCA анализ не выявляет аасоциации, а только определяет комбинации переменных, объясняющих вариацию данных, при минимальной корреляции компонент.
Визуализиуем два измерения UMAP и добавим информацию о летальном исходе
Интерпретация: После PCA точки распределены более равномерно, разряжено, в то время как после UMAP образуется больше локальных сгустков.
С уменьшением числа ближайших соседей уменьшается размер сгустков, с увеличением этого числа увеличивается разреженность облака точек наблюдений. С уменьшением минимальной дистанции увеличивается скученность точек, с увеличинем минимальной дистанции растет разреженность точек.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.4308 0.9893 0.9065 0.8428 0.66478
## Proportion of Variance 0.4094 0.1957 0.1643 0.1421 0.08839
## Cumulative Proportion 0.4094 0.6052 0.7695 0.9116 1.00000
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.3232 1.0170 0.9753 0.8751 0.70559
## Proportion of Variance 0.3502 0.2069 0.1902 0.1532 0.09957
## Cumulative Proportion 0.3502 0.5571 0.7473 0.9004 1.00000
Интерпртация: Наблюдаете ли вы изменения в куммулятивном проценте объяснённой вариации PCA? С ростом объема пермутации снижается кумулятивный процент первых компонент.
В итоговом представлении данных на биплотах для PCA? Да, относительный вклад переменных в компоненты PCA, для 100% btw больше не коррелирует с gest и вносит основной вклад во вторую компоненту.
Отличается ли визуализация данных? Отличается.
Удалим выбросы (п2) и заполним медианой все пропуски в численных данных
## $hopkins_stat
## [1] 0.8217443
Оценим кластеризацию:
## [1] 0.6338419
Интерпретация: Как отличаются получившиеся результаты? Заполнение пропусков медианным значением привело к увеличению кол-ва данных для анализа, что значительно изменило значение коэффициента корреляции между длительностью госпитализации и весом ребенка при рождении (0.69 -> 0.74) и сроком беременности(-0.38 -> -0.22). Качество кластеризации осталось приблизительно тем же, heatmap сравним. В чем преимущества и недостатки каждого подхода? Преимущество заполнения пропусков-увеличение кол-ва данных, доступных для анализа. Недостатки-ошибки в коэффициентах корреляции.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.4900 0.9935 0.9618 0.7982 0.4801
## Proportion of Variance 0.4440 0.1974 0.1850 0.1274 0.0461
## Cumulative Proportion 0.4440 0.6414 0.8265 0.9539 1.0000
Интерпретация: Результаты PCA сильно не изменились при замене пропусков медианой, вместо удаления строк. UMAP выделил отдельные кластеры со смертельным исходом после заполнения пропусков медианным значением.